ウェビナー「ビジネスで活用する機械学習〜SNSテキスト分析編〜」を開催しました
データアナリティクス事業本部の貞松です。
機械学習ウェビナーの第3弾として開催された「ビジネスで活用する機械学習〜SNSテキスト分析編〜」というウェビナーに登壇致しました。
本記事では、都合によりセッションスライドの添付はありませんが、代わりにセッションの概要と所感、QAのまとめを記載致します。
セッション概要
「ビジネスで活用する機械学習」というお題目で、幅広くニーズのあるテキスト分析を対象としたセッション構成としました。 発表の流れとしては以下の通りです。
- テキスト分析とは何ぞや
- テキスト分析の必要性と難しさ
- テキスト分析に対する基本的なアプローチ
- Amazon Comprehendを使用したSNSテキスト分析
セッション後の所感
出来るだけ小難しい要素を省いて簡潔に、と思ったのですが、幾分かデータ前処理やら分析結果に対する処理が小難しくなってしまった感がありました。
時間の余裕もあったので、もう少し手厚く解説した方が良かったというのが次回以降に向けての反省点です。
前回同様、セッション後に質問をたくさんいただき、非常にライブ感のあるセッションになりました。 QAの内容については改めて次節にまとめます。
QA
QA1: 中国語の解析も対応されてるのでしょうか?
公式ドキュメントでは、
- zh : Chinese(simplified)
- zh-TW : Chinese(traditional)
に対応しているとあります。
新機能であるComprehend Medicalなど、一部未対応の機能もあります。
https://docs.aws.amazon.com/comprehend/latest/dg/supported-languages.html
QA2: 中国リージョンのAWSでも使えますでしょうか?
AWS中国リージョン提供サービスにはComprehendがありませんので、現在は未提供という理解で良いと思います(下記ページ参照)
https://www.amazonaws.cn/en/products/
QA3: これは使えるようにするためにはどのような手続きが必要になるのでしょうか?
AWSアカウントさえあれば利用可能です。
特にマネジメントコンソール上でのリアルタイム分析機能については、
- AWSマネジメントコンソールにログイン
- Amazon Comprehendの画面を開く
- Real-time analysisを開く
- Input textに分析したいテキストをコピー&ペーストして、Analyzeボタンをクリックする
- 分析結果が表示される
という流れで、誰でも瞬時にテキスト分析を試すことができます。
QA4: Tweetの感情認識の精度はどの程度でしたでしょうか。うまく行く場合、うまくいかない場合など、知見あれば教えていただきたいです。
実際に感情分類された結果と元のツイートのテキストを対応させて内容を確認した限りでは、大きく間違ってはいない、という所感です。
精度向上の為のアプローチとしては、やはり元データ綺麗さに依るところが大きいので、テキストのクレンジング、フィルタリングを工夫することが考えられます。
今回のケースでは、リプライ、リツイート、URL、メディア(画像、動画)を除外するフィルタリングをかけて分析を実行しているので、その点がそこそこの精度に繋がったと考えられます。
QA5: ビジネス面でどのような応用事例がありますか?
私の所属するチームで月次のふりかえり会を実施しているのですが、その際にまとめているKPTの履歴からProblemに該当するデータを一式取り出してComprehendで分析したことがあります。
抽出されたキーフレーズから主たる長期的な課題を見つけることができました(Problemに含まれるテキストなので、感情分析としては当然Negative判定でした)
QA6: (QA5の回答を受けて)キーフレーズの出現頻度で大きな課題を特定できるということですか?
キーフレーズの出現頻度で重要度を定義するのも良いですし、抽出されたキーフレーズの一覧をそのまま議論の材料にするのも良いと思います。
これらのテキスト分析から得られるのは答えではなく気付きなので、得られた気付きからユーザーが仮説を立てて検証したり、課題解決の為のアクションを立てられれば成功であると考えています。
まとめ
毎度多数のご参加をいただきありがとうございます!
テキスト分析の基礎について理解する為の一助になっていれば幸いです。
また、Amazon Comprehendを使ってまずは簡単にやってみる、という方法も順を追って解説しましたので、是非試していただけると嬉しいです。